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摘 3B: 针对 传统 显著 性 目标 检测 方法 在 检测 不 同 尺 度 的 多 个 显著 性 目标 方面 的 不 足 ， 提 出 了 一 种 多 尺度 特征 深 
度 复 用 的 显著 性 目标 检测 算法 。 网 络 模型 由 垂直 堆 和 登 的 双向 密集 特征 聚合 模块 和 水 平 堆 登 的 多 分 辨 率 语义 互补 模 
块 组 成 。 首 先 ， 双 向 密集 特征 聚合 模块 基于 ResNet 骨干 网 络 提取 不 同 分 辨 率 语 义 特征 ， 然 后 ， 依 次 在 top-down 和 
bottom-up 两 条 通路 上 进行 自 适应 融合 ， 以 获取 不 同 层次 多 尺度 表征 特征 ; 最 后 ， 通 过 多 分 辨 率 语 义 互补 模块 对 两 
个 相 邻 层次 的 多 尺度 特征 进行 融合 ， 以 消除 不 同 层次 上 特征 之 间 的 相互 串扰 ， 来 增强 预测 结果 的 一 致 性 。 在 5 个 基准 数 
据 集 上 进行 的 实验 结果 表明 ， 该 方法 在 Far、5s、MAE 最 高 能 达到 0.939、0.921、0.028， 且 检测 速率 可 达 74.6 fps, 与 
其 他 对 比 算法 相 比 有 着 更 好 的 检测 性 能 。 
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Deep multiplexing multi-scale features for salient object detection 


We Zhou Zhiping, Fan Bin, Gai Shan, Xu Wencheng 
à (School of Information Engineering, Nanchang Hangkong University, Nanchang 330063, China) 


Abstract: In view of the shortcomings of traditional salient target detection methods in detecting multiple salient targets at 
different scales. This paper presents a salient object detection algorithm with deep multiplexing of multi-scale features. The 
network model consists of vertically stacked bidirectional dense feature aggregation modules and horizontally stacked multi- 
resolution semantic complementary modules. First, the bidirectional dense feature aggregation module extracts semantic 
features of different resolutions based on the ResNet backbone network, and then performs adaptive fusion on the top-down 
and bottom-up paths in turn to obtain multi-scale representation features at different levels; The multi-resolution semantic 
complementation module fuses the multi-scale features of two adjacent levels to eliminate the mutual crosstalk between 
features at different levels and enhance the consistency of prediction results. The experimental results on 5 benchmark datasets 
show that the method can achieve the highest Fmax, Sm, MAE of 0.939, 0.921, 0.028, and the detection rate can reach 74.6 fps, 
which has better detection performance compared with other comparison algorithms . 

Key words: salient object detection; multi-scale features; bidirectional dense feature aggregation; multi-resolution semantic; 
deep learning 
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提出 了 一 种 跳 层 结构 ， 该 结构 具有 一 系列 从 高 级 特征 到 低级 
显著 性 目标 检测 (SOD: Salient Object Detection) 是 计算 特征 的 快捷 连接 。Liu 等 人 吴 通 过 选择 性 地 聚合 上 下 文 信息 
机 视觉 领域 的 一 项 关键 技术 ， 则 在 从 输入 图 像 中 分 割 出 视觉 来 构建 全 局 上 下 文 特征 ， 然 后 将 全 局 上 下 文 和 多 尺度 局 部 上 
上 最 为 明显 的 区 域 。 深 度 学 习 技 术 的 兴起 促进 了 SOD 技术 下 文 进行 归并 来 提升 效果 。Wu 等 人 中 提出 了 一 种 新 颖 的 级 
的 大 力 发 展 ， 并 将 SOD 性 能 提升 到 一 个 新 的 水 平 。 已 联 部 分 解码 器 框架 ， 该 框架 丢弃 了 低层 特征 以 降低 深度 聚合 
被 广泛 应 用 于 计算 机 视觉 的 多 个 领域 ， 如 图 像 分 制品 、 视 觉 ”模型 的 复杂 性 ， 并 利用 生成 的 相对 精确 的 注意 力图 来 精炼 高 
跟踪 记 、 图 像 质 量 评估 B、 图 像 检索 由、 边缘 检测 加 等 。 在 层 特征 。Pang 等 人 (9 提出 聚合 交互 模块 ， 通 过 相互 学 习 的 
基于 CNN ff] SOD 模型 中 ， 不 同 层次 的 特征 可 以 表征 显著 性 方式 有 效 地 利用 相 邻 层 的 特征 和 自 适 应 模块 ， 使 网 络 自 适 应 
对 象 的 不 同 特性 。 有 具体 来 说 ， 低 层 语 义 特征 有 着 显著 对 象 的 地 提取 多 尺度 信息 ， 以 更 好 地 处 理 尺 度 的 变化 。 
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详细 信息 ， 但 包含 大 量 噪声 ， 而 高 级 语义 特征 可 帮助 网 络 定 比 外 ， 为 了 生成 更 好 的 显著 性 映射 图 ， 有 必要 对 多 层次 
位 显著 对 象 的 位 置 ， 但 缺乏 有 关 对 象 的 详细 信息 。 的 特征 进行 归并 。 然 而 ， 过 度 集 成 不 同 分 辨 率 的 特征 ， 不 仅 


如 何 从 尺度 变化 的 数据 中 提取 更 有 效 的 信息 ， 以 及 怎么 “会 带 来 大 量 的 计算 开销 ， 还 会 导致 有 用 特征 被 稀释 ， 进 而 使 
使 得 预测 结果 与 图 像 中 的 显著 目标 在 空间 上 保持 一 致 ， 仍 然 ”算法 性 能 退化 。 为 此 ， 研 究 学 者 提出 了 多 种 不 同 的 方案 以 克 
是 两 个 悬而未决 的 问题 。 近 年 来 所 开展 的 研究 工作 专注 于 设 ”” 服 这 一 问题 。 Feng 等 人 0 采用 每 个 编码 器 块 和 相应 的 解码 器 
计 复 杂 的 网 络 结构 ， 提 取 上 共有 强 辨识 能 力 的 多 尺度 特征 或 对 块 构建 的 注意 反馈 模块 来 帮助 结合 多 层次 特征 。Wei AIX 
多 尺度 特征 进行 高 效 地 融合 ， 以 满足 对 不 同 尺度 显著 性 目标 ”用 选择 性 融合 策略 ， 通 过 元 素 级 乘法 操作 来 融合 不 同 层次 的 
检测 的 要 求 。Zhang 等 人 中 提出 了 一 个 通用 的 聚合 多 级 卷 积 特征 以 抑制 元 余 信息 ， 避 免 不 同 层次 特征 之 间 的 相互 污染 。 
特征 的 框架 ， 它 以 完全 连接 的 方式 组 合 来 自 多 层 的 特征 。 Qin 等 人 0 提出 了 一 个 两 层 嵌 套 的 U 型 结构 来 集成 多 层次 的 
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周 之 平 ， 等 : 多 尺度 特征 深度 复 用 的 显著 性 目标 


深层 特征 。Chen 等 人 0 将 残 差 学 习 引 入 到 HED 的 体系 结构 


中 ， 在 自 上 而 下 的 路 径 中 使 用 反 向 注意 力 来 指导 残余 显著 性 


的 方法 。 
综 上 所 述 ， 如 何 将 


学 习 ， 引 导 网 络 能 快速 而 有 效 地 发 现 缺失 的 对 象 部 分 和 缺损 
细节 。 陈 等 人 05 提 出 结合 中 心 邻 域 对 比 度 机 制 和 卷 积 神经 
网 络 ， 为 有 效 提高 多 尺度 特征 的 表示 能 力 提供 了 一 种 强 有 力 


CNN 主干 网 络 中 不 同 层次 的 特征 有 


效 融合 至 关 重 要 。 该 文 基于 UNet 网 络 模型 404， 提出 一 种 多 


尺度 特征 深度 复 用 的 
multiplexing multi-scale 
特征 聚合 模块 (BDA: bid 


显著 性 目标 检测 模型 (DMMF:deep 
feature)。 该 模型 中 设计 了 双向 密集 


irectional dense aggregation module), 
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过 对 PANet 进行 化 简 构建 了 BiFPN 模块 ， 并 通过 多 次 堆 赫 


BiFPN 以 更 有 效 地 获得 更 具 鉴 别 性 的 多 尺度 特征 。 
双向 密集 特征 聚合 模块 通过 双向 ( 自 顶 向 下 和 自 底 向 上 ) 
跨 尺 度 连接 路 径 进行 多 尺度 特征 提取 ， 当 融合 不 同 分 辩 率 的 


特征 时 ， 
特征 的 贡献 不 均 


jani 


昌 于 输入 特征 具有 不 同 的 分 辨 率 ， 它 们 通常 对 输出 
等 ,该 算法 通过 一 个 简单 的 注意 力 机 制 为 每 
个 输入 增加 一 个 额外 的 权重 ， 让 网 络 学习 每 个 输入 特征 的 重 
要 性 。 然 而 ， 不 同 于 简单 的 级 联 操作 ， 该 算法 通过 堆 闭 不 断 
减 小 规模 的 双向 密集 特征 聚合 模块 来 实现 更 高 级 别 的 特征 融 
合 ， 以 更 少量 的 参数 达到 相同 甚至 更 优 的 效果 。 


BDA 模块 的 结构 如 图 1 所 示 。 以 图 2 的 BDA5 为 例 ， 下 


TE top-down 和 bottom-up 两 条 通路 中 对 主干 网 抽取 的 不 同 分 


PERAI CNN 特征 进行 重用 ， 并 利用 残 差 连接 进行 特征 增强 。 


通过 堆 赤 多 个 不 同 尺度 的 BDA 模块 来 提取 具有 多 种 分 辨 率 
语义 的 多 层次 特征 。 结 合 文献 [10] 的 设计 理念 ， 设 计 了 多 分 
辩 率 语义 互补 模块 (MSC: Multi-resolution semantic 


complement module)， 按 照 级 联 方式 将 其 植 入 到 UNet 网 络 的 
bottom-up 通路 中 ， 以 增强 模型 对 显著 性 目标 的 预测 能 力 。 


ü 
1 ”多 尺度 特征 深度 复 用 网 络 


标 “5” 表 示 该 模块 有 5 个 输入 信号 ， 对 应 于 Resnet50 网 络 5 


个 stage 上 提取 到 的 基本 特征 a~a; 。 首 先 ，w 通过 上 采样 


与 将 进行 逐 元 素 线性 加 权 操 作 以 及 3X3 卷 积 ( 含 批 归 一 化 
层 、Relu 激活 函数 层 ) 操 作 获 得 m ， 同 理 自 底 向 上 依次 获得 


m,, m DA. 


Wn. b 下 采样 与 ww、 进行 逐 元 素 线性 


加 权 操 作 以 及 3X3 卷 积 ( 含 批 归 一 化 层 、Relu 激活 函数 层 ) 


获得 请 ， 同 理 自 顶 向 下 的 依次 获得 请 ， 记 ， 广 。 最 后 ， 将 上 


多 尺度 特征 深度 复 


化 ， 提 出 了 一 个 堆 受 的 双向 密集 特征 聚合 模块 对 主干 网 络 提 
取 的 特征 进行 全 分 辩 率 融合 ， 提 取 语 义 更 为 丰富 的 多 尺度 特 


征 。 对 于 获取 到 的 多 个 层次 的 多 尺度 特征 ， 采 用 级 联 的 多 分 
辩 率 语义 互补 模块 来 保留 相 邻 特征 


点 中 的 有 用 信息 ， 逐 级 


还 原 显著 性 目标 的 语义 


up d 


自 


do 
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图 1 


DMMF 网 络 框架 图 


Fig.1 DMMEF network framework diagram 


1.1 双向 密集 特征 聚合 模块 


双向 密集 特征 聚合 模块 则 在 聚合 不 同 分 辩 率 的 特征 。 形 
式 上 ， 给 出 多 尺度 列表 特征 =( 芒 ， 开 、...)， 其 中 蕊 表示 
层 的 特征 ， 该 算法 的 目标 是 找到 一 个 可 以 有 效 聚 合 不 同 特征 


并 输出 新 特征 列表 的 变 


fe f :bw = 了 f(b,) 。 传 统 的 FPNI7 以 自 


顶 向 下 的 方式 聚合 多 尺 
限制 。 为 了 解决 这 个 问 
而 上 的 路 径 聚 合 网 络 ， 


性 能 提升 的 同时 带 来 了 更 多 的 参数 和 


度 特征 ,其 本 质 上 受到 单 向 信息 流 的 
题 ，PANet8 增 加 了 一 个 额外 的 


的 显著 性 目标 检测 网 络 如 图 1 所 示 。 
该 网 络 以 Resnet50 作为 主干 网 络 ， 为 了 使 初始 特征 更 加 多 样 


作为 MSC 的 输入 之 一 cs， 同 时 bh ，b，b，hh 作 为 模块 
BDA4 的 输入 。 与 BDA; 类 似 ， BDA4 将 得 到 , b,, b, b, 
四 个 输出 ， 户 将 作为 MSC WRAZ ea, Ea, bh, b 
作为 模块 BDA; 的 输入 ， 最 终 BDA; 的 三 个 输出 作为 MSC 的 
IA CG, G, Go 
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图 2 双向 密集 特征 聚合 模块 


Bidirectional dense aggregation module 


图 2 中 的 BDA; 的 融合 过 程 如 式 (1) 和 (2) 所 示 。 


0 kz-L5 
-| D 


conv(w,xa, *wxup(a,4,)) 1<k<5 


conv(w, xa, -w,xup(m,4)) k=1 


b, qe xa, +w, xm, *-w,xdown(b,,)) 1<k<5 (2) 


conv(w, xa, * w,xdown(b,,)) k=5 


其 中 :有 ，k=2~K 是 自 上 而 下 路 径 的 中 间 特 征 ，conv 为 对 特 


征 进行 3x3 卷 积 ， 再 加 上 批 归 一 化 (Batch Normalization) 和 


Relu 激活 函数 的 一 组 操作 ，w 为 特征 融合 阶段 给 每 个 输入 
所 分 配 的 权重 系数 ，w 初始 化 为 (0,1) 的 随机 数 ， 并 利用 Laplace 


平滑 进行 归 一 化 处 理 : w =(w+e)/ J (w+e)i=1,23 ， 其 中 ==1x10+4， 


用 于 避免 数值 计算 
函数 保证 其 非 负 ， 


的 不 稳定 。 网 络 每 次 训练 后 更 新 内 ， 使 用 Relu 
并 通过 Laplace 平滑 重新 归 一 化 处 理 。 


1.2 多 分 辩 率 语义 互补 模块 


堆 秋 的 双向 密集 特征 聚合 模块 用 于 从 骨干 网 络 提取 不 同 


层次 的 有 效 的 多 尺度 特征 ， 而 多 分 辨 率 语 义 互补 模块 则 是 让 
相 邻 层次 的 多 尺度 特征 在 空间 、 语 义 上 相互 补充 ， 不断 增强 
适合 当前 分 辨 率 的 特征 ， 削 弱 不 合适 的 特征 ， 进 而 找到 适合 


义 特 征 €, €, 


160X160，80X80，40X40，20X20， 这 些 特征 都 含有 来 自 


当前 输入 信息 的 特征 。 
上 而 下 经 过 BDAs~ BDA; 获 得 了 一 组 最 终 地 多 尺度 语 


GG，G，G 分 辩 率 依次 为 320X320, 


不 同 尺 度 目 标的 语义 信息 ， 但 各 个 语义 成 分 的 重要 程度 存在 


计算 。NAS-FPN05?1 使 ) 


神经 架构 搜索 来 搜索 更 好 的 跨 尺度 


特征 网 络 拓扑 ， 但 在 搜索 过 程 中 需要 数 干 个 GPU 小 时 ， 并 


且 发 现 的 网 络 不 规则 且 


差异 。 如 果 简 单 地 将 这 些 特征 进行 线性 融合 会 造成 特征 之 间 


的 相互 干扰 ， 弱 化 那些 具有 较 强 鉴别 能 力 的 特征 ， 进 而 影响 


难以 解释 或 修改 。EfEicientDet20 通 


算法 的 检测 性 能 。 


为 此 ， 提 出 多 分 辩 率 语义 互补 模块 ， 以 充 
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分 挖掘 各 个 粒度 特征 中 的 有 用 信息 ， 形 成 优势 互补 。MSC ” ISP3]，ECSSDDC，pascal-S23。DUT-OMRON 包括 5168 幅 
的 详细 情况 如 图 3。 图 像 ， 其 中 大 多 数 包含 一 个 或 两 个 结构 复杂 的 前 景 目 标 。 
DUTS 数据 集 由 DUTS-TR 和 DUTS-TE 两 部 分 组 成 。 因 为 算 
法 训练 时 使 用 了 DUTS-TR 数据 集 ， 为 此 选择 包含 5019 t K 
~ 像 的 DUTS-TE 进行 测试 。HKU-IS 包含 4447 幅 图 像 ， 其 中 
包含 多 个 与 图 像 边界 相交 的 不 连续 显著 对 象 。ECSSD 包含 
图 3 ”多 分 辩 率 语义 互补 模块 1000 幅 结构 复杂 的 图 像 ， 多 数 图 像 包含 尺度 较 大 的 前 景 目 
Fig.3 Multi-resolution semantic complement module bs. PASCAL-S && 850 幅 图 片 ， 这 些 图 像 都 有 着 复杂 的 前 
MSC 的 详 可 以 表示 为 景 对 象 和 杂乱 的 背景 。 
f, = conv(concat( fi, f.) G) 2.22 评估 指标 
FRO f (4) 为 了 更 全 面 地 进行 实验 评价 ， 该 算法 选择 了 F-measure， 
F=f@f. (5) ”平均 绝对 精度 (MAE)，S-measure 三 个 广泛 使 用 的 评价 指标 
f; = conv ft, fi) (6) ”来 对 算法 的 性 能 进行 评价 。 
ER, fA, RRISE, cony 表示 带 批 量 归 一 化 层 和 F-measure 是 综合 Precision 和 Recall 的 加 权 调 和 平均 值 ， 定 义 如 下 : 
ReLU 激活 函数 的 空洞 卷 积 ， e 为 逐 元 素 加 法 ， @ 为 逐 元 素 TE A+ £2) x Precision x Recall 0) 


乘法 。MSC 首先 通过 concat 操作 将 输入 特征 进行 合并 ， 然 P? x Precisionx Recall 
后 通过 rate 为 1 的 空洞 卷 积 ， 同 时 ， 进 行 归 一 化 和 relu 操 其 中 ， 一 般 设 置 为 0.3，F-measure 越 大 表示 预测 结果 越 准 
作 ， 这 样 就 获取 到 了 融合 了 两 个 输入 特征 的 全 局 语义 信息 。 确 。 该 算法 选择 所 有 阔 值 计算 出 的 最 大 值 作 为 评价 结果 。 


然后 通过 逐 元 素 相 加 将 得 到 的 全 局 语义 信息 添加 回 箱 入 特征 ， 平均 绝对 误差 (MAEB) 是 计算 预测 的 显著 图 与 真 值 图 之 问 
来 分 别 对 输入 特征 进行 空间 和 语义 上 的 补 强 。 最 后 通过 逐 元 。 的 平均 绝对 误差 ， 计 算 公式 如 下 所 示 。 

素 乘法 ， 并 加 入 自 适应 权重 ， 来 有 选择 的 继承 两 组 从 空间 和 A x 

语义 上 得 到 补 强 的 特征 。 这 样 ，MSC 就 实现 了 让 输入 特征 MAE = Fray Dadil POD G) i 
RERE FIRE EHE £900 HL oh. P 代表 预测 的 显著 图 ，G 代表 对 应 的 真 值 图 。(H,W) 


Sa 代表 图 像 的 大 小 ，(Cxy) 代 表 像 素 点 的 对 应 坐标 。MAE 越 小 

JIS pit 

2 ”实验 和 结 采 表示 预测 结果 越 好 。 

2.1 数据 集 S-measure 是 通过 度量 目标 感知 (object-aware) So 和 区 域 
训练 数据 集 新 方法 在 DUTS-TR 上 进行 网 络 训练 ， 感知 (region-aware) 5. 的 结构 相似 性 来 评估 预测 的 显著 图 和 


DUTS-TR 是 DUTS 数据 集 的 一 个 子 集 ， 总 共 包含 10553 幅 。 真 值 图 之 间 的 结构 相似 性 的 评价 指标 ， 计 算 公式 如 下 所 示 。 
图 像 。 它 是 目前 规模 最 大 和 最 常用 的 显著 性 目标 检测 训练 数据 SS ROMS, (9) 
集 。 为 了 确保 模型 的 收敛 ， 设 置 训 练 的 轮 次 为 80， 采 用 SGD 其 中 ， a 通常 设置 为 0.5, S-measure 武大， 表示 检测 的 显著 
优化 器 ， 初 始 学 习 率 为 1X103， 权 重 衰 减 为 SX104， 其 中 ， 图 与 真 值 图 在 空间 结构 上 越 相 似 。 


动量 项 系数 为 0.9。 所 有 实验 均 在 Linux 16.04 操作 系统 ， 2.3 性 能 分 析 

GPU(GTX TITAN-XP), Pytorch 1.0.0, cuda9.0 环境 下 完成 。 在 DUTS-TE. DUT-OMRON 、HKU-IS 、 ECSSD 和 
测试 数据 集 : 使 用 6 个 常用 的 基准 数据 集 对 提出 的 方法 PASCALS5 个 显著 性 检测 数据 集 上 ， 使 用 上 述评 价 指标 ， 将 新 提出 

进行 评估 ， 包 括 : DUT-OMRONP!, DUTS-TEP?, HKU- 的 方法 与 目前 最 先进 的 11 种 方法 进行 比较 ， 结 果 如 表 1 所 示 。 


YE 


dl 不 同 算法 在 测试 集 上 Eus. Sn, MAE 指标 的 对 比 
Tab. 1 Comparison of F4, 5, , MAE indicators of different algorithms on the test set 
DUTS-TE DUT-OMRON HKU-IS ECSSD PASCAL S 
Fmax? SmîÎ MAE, FEmaxT Sm] MAE, Fmax] SmT MAE, Fmax] Sm] MAE, Fmax] SmT MAE| 
MWSPel 0.789 0.792 0.106 0.718 0.751 0.114 0.841 0.820 0.072 0.878 0.866 0.096 0.790 0.746 0.134 


Approachs 


RAS! 0.831 0.839 0.059 0.787 0.814 0.061 0.913 0.887 0.045 0.921 0.893 0.056 0.838 0.795 0.104 
R3Net""l 0.833 0.836 0.057 0.795 0.817 0.062 0.915 0.895 0.035 0.934 0.910 0.040 0.846 0.805 0.094 
CPDP! 0.865 0.869 0.046 0.797 0.825 0.056 0.925 0.906 0.034 0.939 0.918 0.037 0.872 0.847 0.072 
AFNet! 0.863 0.867 0.043 0.801 0.826 0.057 0.925 0.905 0.036 0.935 0.914 0.042 0.871] 0.850 0.071 


PoolNet??! 0.880 0.871 0.040 0.808 0.836 0.056 0.932 0.917 0.033 0.944 0.921 0.039 0.865 0.832 0.075 
BASNetP?! 0.872 0.879 0.040 0.803 0.832 0.059 0.930 0.913 0.032 0.945 0.924 0.035 0.879 0.853 0.070 
EGNet?! 0.890 0.887 0.039 0.815 0.841 0.053 0.935 0.918 0.031 0.947 0.925 0.037 0.878 0.853 0.075 
U2Netl?! 0.873 0.861 0.044 0.823 0.847 0.054 0.935 0.916 0.031 0.951 0.928 0.033 0.859 0.844 0.074 
F3Netl?! 0.891 0.888 0.035 0.813 0.838 0.053 0.937 0.917 0.028 0.945 0.924 0.033 0.872 0.855 0.062 
MINet!?! 0.884 0.884 0.037 0.811 0.833 0.055 0.935 0.920 0.028 0.947 0.925 0.033 0.882 0.857 0.064 

DMMF 0.891 0.890 0.034 0.817 0.845 0.052 0.939 0.921 0.028 0.949 0.930 0.031 0.879 0.856 0.065 


d 1 可 知 : 提出 的 方法 有 着 很 好 的 性 能 ， 在 大 多 数 数 据 集 。 ”的 方法 的 Fh 和 5 均 优 于 其 他 方法 ， 只 有 MAE 略 低 于 F3Net; TE 
的 比较 指标 上 ， 表 现 优 于 其 他 显著 性 检测 模型 。 其 中 ， 在 HKU- ”ECSSD 数据 集 上 ， 提 出 的 方法 的 MAE 和 均 优 于 其 他 方法 ， 只 
IS 数据 集 上 ， 该 算法 表现 最 好 ， 在 3 个 评价 指标 上 都 优 于 其 他 方 有 略 低 于 U2Net。 因 此 ， 综 合 所 有 的 数据 集 和 评价 指标 ， 提 
法 ， 其 中 ES 比 U2Net 提高 了 0.004, S. Lb U2Net 提高 了 出 的 方法 对 多 个 显 标 和 尺度 变化 有 着 很 好 的 性 能 体现 。 

0.005,MAE tE U2Net 减 小 了 0.003; 在 DUTS-TE 数据 集 上 ， 提 出 此 外 ， 在 数据 集 ECSSD 上 不 同方 法 之 间 的 平均 速度 (FPS) 比 
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较 如 表 2 所 示 。 从 表 2 可 以 看 出 ， 提 出 的 算法 的 检测 速度 74.6FPS， 仅 
表 2 不 同 算法 的 检测 速度 指标 FPS 比较 次 于 MINet 的 86FPS， 但 检测 性 能 优 于 MINet。 

Tab.2 Comparison of detection speed index FPS of different algorithms 为 了 更 直观 的 说 明 提 出 的 算法 的 优势 ， 将 11 种 最 先进 
本 文 MWS RAS R3Net CPD AFNet 的 检测 方法 在 不 同 场景 下 的 预测 结果 可 视 化 ， 比 较 结果 如 图 

Size 320X320 256X256 256X256 224X224 352X352 224X224 4 所 示 。 
FPS — 746 52 45 33 66 26 4 中 ， 第 工行 是 小 的 显著 性 目标 的 情况 ， 第 2 行 是 大 
PoolNet ^ BASNet EGNet U2Net F3Net MINet 的 显著 性 目标 的 情况 ， 第 34 行 是 包含 多 个 大 小 不 同 的 显著 
Size 300x400 256X256 256X256 320x320 352X352 320x320 性 目标 的 情况 ， 第 $ 行 是 前 景 、 背 景 对 比 度 较 低 的 情况 ， 第 
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FPS 30 6 行 是 在 复杂 场景 下 的 情况 。 
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文 算法 MINet — F3Net U2Net  EGNet BAS Net PoolNet AFNet CPD R3Net RAS MWS 
图 4 不 同 算法 的 可 视 化 对 比 结 


Fig.4 Visual comparison results of different algorithms 


图 4 可知， 提出 的 算法 在 小 目标 ， 大 目标 ， ^ [i b) MSC fill BDA 组 合 策略 对 算法 性 能 的 影响 

尺度 目标 ， 复 杂 背 景 等 情况 下 的 检测 效果 和 真 值 图 都 相差 无 为 了 验证 MSC fll BDA 两 个 模块 在 模型 中 的 有 效 性 ， 针 
1L。 此 外 ， 较 其 他 算法 ， 在 小 目标 情况 下 ， 可 以 有 效 屏蔽 背 ” 对 不 同 组 合 策略 ， 在 DUTS-TE 数据 集 上 进行 测试 。 使 用 F- 
景 干扰 ， 检 测 到 小 的 显著 目标 ;在 大 目标 情况 下 能 更 完整 的 measure, MAE 和 S-measure 3 个 评价 指标 来 进行 性 能 比较 。 
检测 除 显著 性 目标 ， 不 会 出 现 缺 损 。 在 具有 不 同 尺度 目标 时 结果 如 表 4 所 示 。 
也 能 很 好 的 检测 到 物体 的 轮 廊 边缘。 在 前 景 、 背 景 对 比 度 低 KA MSFF 算法 的 消融 实验 
的 情况 下 ， 能 很 好 的 找到 目标 的 完整 轮 廊 。 在 复杂 背景 场景 Tab.4 Ablation experiment of MSFF algorithm 
下 ， 也 能 有 效 的 检测 到 显著 目标 而 不 会 检测 到 干扰 目标 。 Baseline BDAs BDAs* MSC Fw MAE S, 
2.4 消融 分 析 N 0.853 0.055 0.842 

a) 不 同 BDA 模块 对 算法 性 能 的 影响 J 0.872 0.046 0.875 

J 0.878 0.044 0.879 


J 
AY GKOGEUBIERHESE. BEART UIN 4 V 

BDA 模块 。 为 了 验证 如 何 堆 县 更 利于 模型 预测 ， 在 HKU-IS Nj "| 4 0.885 0.0388 0.884 
数据 集 上 ， 对 不 同 堆 羞 方案 进行 了 测试 和 比较 ， 结 果 如 表 3 | 4 4 0.891 0.035 0.890 


所 示 ， 其 中 “ xn ”表示 对 结构 相同 的 重复 堆 蕉 n 次 。 其 中 :BaseLine 为 原始 的 U-Net 网 络 模型 ，BDAs 为 按 
表 3 不 同 堆 县 方式 对 算法 性 能 的 影响 “BDAs+BDA4+BDA3” 堆 车 的 子 网 络 ，BDAs* 表 示 不 进行 加 
Tab.3 Performance comparison of different stacking methods 权 的 BDAs， 即 式 1) 和 2) 中 所 有 权重 wi 取 为 1。 从 表 3 数据 
HADR Fas MAE 可 以 看 出 ， 在 Baseline 上 引入 BDAs 或 MSC 模块 后 算法 性 
BDAS 0.922 0.036 能 都 能 获得 一 定 程度 的 提升 。 而 Baseline-BDAs-MSC 
BDA5x2 0.928 0.033 策略 获得 的 性 能 最 佳 ， 相 较 于 Baseline， 模 型 的 Fux, 
BDASx3 0.933 0.031 S 指标 分 别提 高 了 0.038 和 0.048, MAE 下 降 了 0.02. 
BDA5x4 0.926 0.034 ix ji8jJE € £^ BDA fl MSC 模块 能 抽取 更 利于 检测 任 
BDAS+BDA4+BDA3 0.939 0.028 务 的 抽象 特征 ， 引 入 自 适 应 加 权 策 略 融 合 不 同 层次 的 
从 表 2 数据 可 以 看 出 ， 重 复 对 BDAS HRERL KITE 。 特征 可 避免 特征 之 间 的 相互 干扰 ， 进 而 使 得 预测 结果 
法 性 能 比 使 用 单个 模块 要 好 ， 这 说 明 多 次 对 多 分 辨 率 特征 进 ” 与 图 像 中 显著 性 目标 更 为 一 致 。 
行 融合 有 助 于 提升 算法 性 能 。 但 当 堆 铸 次 数 超过 3 时 ， 算 法 3 itu 
性 能 会 下 降 ， 因 为 随 着 网 络 模型 变 深 ， 容 易 导 致 梯度 消失 ， 结束 语 
从 而 使 得 网 络 更 难以 训练 。 而 对 3 个 不 同 构 型 的 BDA 模块 为 了 克服 显著 性 目标 检测 中 多 尺度 问题 ， 提 出 一 种 基于 
进行 堆 关 时 ， 算 法 性 能 最 优 ， 这 反映 了 对 不 同 分 辨 率 的 多 层 多 尺度 特征 深度 复 用 的 显著 性 目标 检测 方法 。 该 方法 设计 了 
语义 特征 融合 ， 能 防止 有 用 的 特征 被 稀释 ， 从 而 捕获 更 具 判 个 双向 密集 特征 聚合 模块 ， 对 主干 网 络 提取 的 卷 积 特征 进 
别 性 的 抽象 特征 。 行 多 次 重用 ， 利 用 自 适 应 加 权 融 合 特征 ， 以 消除 不 同 层 次 特 
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征 的 相互 和 干扰， 设计 了 多 分 辩 率 语义 互补 模块 模块 ， 对 分 辨 
相 邻 的 两 组 特征 进行 融合 ， 在 空间 和 语义 上 进行 相互 增强 。 
虽 试 结果 表明 : 提出 的 方法 在 的 ，5,s，MAE 分 别 能 达 
到 0.939，0.921，0.028， 均 优 于 11 种 最 先进 的 方法 ， 且 能 
准确 地 检测 到 图 像 中 不 同 尺度 的 多 个 目标 ， 有 效 地 处 理 背 景 


P" 


E 


较为 复杂 的 场景 。 在 下 一 步 的 研究 工作 中 ， 将 引入 多 监督 的 
思想 和 采用 新 的 注意 力 机 制 ， 来 更 有 力 的 寻找 显著 目标 的 轮 
廊 ， 并 使 用 深度 可 分 离 卷 积 来 减少 模型 的 参数 。 
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